O campo da Intelixencia Artificial está a experimentar un aumento sen precedentes de innovación, pero o discurso público adoita permanecer fixado en Grandes Modelos de Linguaxes (LLMs). e Os coñecementos de LeCun desafían á sabedoría convencional, enfatizando un cambio cara a sistemas que realmente entenden, razoan e interactúan co noso complexo mundo físico. por Bill Dally Yann LeCun Máis aló das fronteiras lingüísticas Yann LeCun recoñece abertamente que é Xa non son tan interesados en LLMs. . not so interested in LLMs anymore Mentres continúan mellorando á marxe a través de máis datos, computación e xeración de datos sintéticos, LeCun veo como unha "modalidade sinxela de ver o razoamento". Comprender o mundo físico: como poden as máquinas comprender as matices da física e a interacción do mundo real? Memoria persistente: Desenvolvemento de sistemas de IA con capacidade para a memoria a longo prazo, accesible. Razonamento: Moverse máis aló das formas actuais, a miúdo rudimentarias, de razoamento nos LLMs cara a métodos máis sofisticados e intuitivos. Planificación: Permite que a IA planifique secuencias de accións para alcanzar obxectivos específicos, similares aos procesos cognitivos humanos. LeCun suxire que a comunidade tecnolóxica, aínda que actualmente está enfocada nos LLM, probablemente se emocionará con estes "papeis académicos escuros" dentro de cinco anos. O reto do mundo real: por que os tokens caen curtos A limitación fundamental dos LLM actuais, segundo LeCun, reside no seu enfoque baseado en tokens. Tokens, tipicamente representando un conxunto finito de posibilidades (arredor de 100.000 para LLMs), son ben axeitados para datos discretos como a linguaxe. Os humanos adquiren "modelos mundiais" nos primeiros meses de vida, permitíndonos comprender causa e efecto - por exemplo, como empuxar unha botella desde arriba podería viralo, mentres que empuxalo desde abaixo podería facelo deslizarse. Os intentos de adestrar sistemas para comprender o mundo mediante a predición de datos continuos de alta dimensión como o vídeo a nivel de píxeles fracasaron en gran medida. Estes sistemas esgotan os seus recursos intentando inventar detalles imprevisibles, o que leva a un "desperdicio completo de recursos". Mesmo as técnicas de aprendizaxe auto-supervisadas que funcionan reconstruíndo imaxes de versións corrompidas non funcionaron, así como as arquitecturas alternativas. Isto é porque moitos aspectos da realidade son inherentemente imprevisibles a un nivel granular, como a aparencia exacta de cada persoa nunha continuación de vídeo. Arquitecturas preditivas conxuntas de incorporación (JAPA): O futuro dos modelos mundiais A resposta a este desafío, argumenta LeCun, reside en Joint Embedding Predictive Architectures (JAPA). A diferenza de modelos xerativos que intentan reconstruír a nivel de píxeles, JAPA céntrase en aprender "representacións abstractas" de datos. How JAPA Works: Unha peza de entrada (por exemplo, un anaco de vídeo ou unha imaxe) é executada a través dun codificador para producir unha representación abstracta. Unha versión continuada ou transformada da entrada tamén se executa a través dun codificador. O sistema entón tenta facer predicións dentro deste "espazo de representación" (espazo latente), en lugar do espazo de entrada en bruto. Este enfoque evita o problema do colapso onde os sistemas poden ignorar a entrada e producir representacións constantes e non informativas, un obstáculo que tardou anos en superar. Para os sistemas de axentes que poden razoar e planificar, JAPA ofrece un poderoso mecanismo.Imaxina un predictor que, ao observar o estado actual do mundo, poida anticipar o "próximo estado do mundo dado que podería tomar unha acción que estou imaxinando tomar". JAPA for Reasoning and Planning: LeCun contrasta fortemente isto cos actuais "sistemas de razoamento axente" que xeran un gran número de secuencias de token e, a continuación, usan unha segunda rede neural para seleccionar o mellor. El compara isto a "escribir un programa sen saber como escribir un programa" - un método "completamente desesperado" para calquera cousa máis aló de secuencias curtas, xa que escala exponencialmente coa lonxitude. Un exemplo práctico do potencial de JAPA é o proxecto VJA (Video Joint Embedding Predictive Architecture), actualmente en desenvolvemento en Meta. O sistema VJA, adestrado en segmentos de vídeo curtos para predicir representacións de vídeos completos a partir de versións enmascaradas, está demostrando a capacidade de detectar se un vídeo é "físicamente posible ou non". Mediendo o erro de predición, pode marcar eventos "inusuales", como obxectos que aparecen ou desaparecen espontaneamente, ou desafiando a física. O Camiño á Intelixencia Máquina Avanzada (AMI) LeCun prefire o termo Intelixencia Máquina Avanzada (AMI) sobre Intelixencia Xeral Artificial (AGI), citando a natureza altamente especializada da intelixencia humana. con AI a nivel humano potencialmente chegando dentro dunha década ou máis. con AI a nivel humano potencialmente chegando dentro dunha década ou máis. Con todo, advirte contra o patrón histórico de exceso de optimismo na IA, onde cada novo paradigma é proclamado como o camiño para a intelixencia a nivel humano dentro dunha década. Os LLM son adestrados en grandes cantidades de texto (por exemplo, 30 billóns de tokens, equivalentes a 400.000 anos de lectura). En contraste, un neno de 4 anos procesa unha cantidade equivalente de datos a través da visión en só 16.000 horas, demostrando a inmensa eficiencia da aprendizaxe visual. A clave para desbloquear AMI, segundo LeCun, é descubrir a "boa receita" para adestrar arquitecturas JAPA a escala. Do mesmo xeito que levou tempo para descubrir a combinación correcta de trucos de enxeñaría, non-linearidades e innovacións como ResNet (o artigo máis citado na ciencia na última década) para adestrar eficazmente redes neurais profundas e transformadores, é necesario un avance similar para JAPA. O impacto da IA: de salvar vidas a ferramentas de produtividade A pesar do foco nos futuros paradigmas, LeCun destaca o inmenso impacto positivo que a IA xa ten: Ciencia e Medicina: A IA está a transformar o deseño de fármacos, o plegamento de proteínas e a comprensión dos mecanismos da vida.Na imaxe médica, os sistemas de aprendizaxe profunda pre-escrilan mamografías para tumores, e a IA reduce os tempos de escaneamento por RMN nun factor de catro recuperando imaxes de alta resolución de menos datos. Asistencia ao condutor e sistemas automáticos de freada de emerxencia, agora obrigatorios en Europa, reducen as colisións nun 40%, salvando vidas. Produtividade e creatividade: A IA non está a substituír ás persoas, senón a servir como "ferramentas de poder" que fan que os individuos sexan máis produtivos e creativos, xa sexa como asistentes de codificación, en medicina ou en esforzos artísticos. A necesidade de "precisión e fiabilidade" en aplicacións como a condución autónoma (onde os erros poden ser mortais) fai que o campo e a implantación de sistemas de IA sexan "máis difíciles do que a maioría da xente pensaba". É onde a IA moitas veces falla -non na técnica básica ou nas demostracións, senón na integración fiable nos sistemas existentes. A experiencia de Meta suxire que, a pesar da dispoñibilidade de LLMs, non viron un "grande aumento no contido xerativo sendo publicado en redes sociais, ou polo menos non de forma nefasta". El relata o episodio "Galactica", onde o LLM de código aberto de Meta para literatura científica foi atopado con "vitriol" e tomado por mor do medo, só para que ChatGPT sexa celebrado semanas máis tarde. LeCun cre que a "contra-medida contra o abuso é só mellor AI" - con sistemas de sentido común, capacidade de razoamento, e a capacidade de avaliar a súa propia fiabilidade. El rexeita os escenarios catastróficos, crendo que "as persoas se adaptan" e que a AI é "o mellor para o ben". O papel indispensable do código aberto e da colaboración global Un dos principios fundamentais da filosofía de LeCun é a necesidade absoluta de plataformas de IA de código aberto. subliña que "boas ideas veñen da interacción de moitas persoas e do intercambio de ideas". Ningunha entidade ten un monopolio sobre a innovación, como demostra a arquitectura revolucionaria ResNet, que veñen de científicos chineses en Microsoft Research Beijing. O compromiso de Meta co código aberto, exemplificado por PyTorch e LLaMA, está impulsado pola crenza de que fomenta un ecosistema próspero de startups e permite que o maior número de persoas intelixentes contribúan á construción de funcionalidades esenciais. Why Open Source AI is Crucial for the Future: Diversidade de asistentes de IA: nun futuro onde a IA media case todas as interaccións dixitais (por exemplo, lentes intelixentes), un só puñado de empresas non poden proporcionar a diversidade de asistentes necesarios. necesitamos asistentes que entenden "todas as linguas do mundo, todas as culturas do mundo, todos os sistemas de valores", e poden encarnar diversos prexuízos e opinións, do mesmo xeito que unha prensa diversa é vital para a democracia. Formación distribuída: Ningunha entidade única recollerá todos os datos do mundo en todos os idiomas.O modelo futuro implica modelos de fundación de código aberto adestrados dun xeito distribuído, con centros de datos que acceden globalmente a subconxuntos de datos para adestrar un "modelo de consenso". Fine-Tuning sobre datos propietarios: os modelos de código aberto como LLaMA permiten ás empresas descargar e afinar os seus propios datos propietarios sen ter que envialos, soportando aplicacións especializadas verticais e modelos de negocio de arranque. LeCun destaca que as empresas cuxos ingresos non están unicamente ligados aos servizos de IA (como o modelo de publicidade de Meta) teñen menos que perder e máis que gañar de abrir os seus modelos, en contraste con empresas como Google que poderían velo como unha ameaza para o seu negocio de busca principal. Hardware: alimentando a próxima revolución da IA Mentres que as GPUs viron incribles avances (5.000 a 10.000 veces o aumento na capacidade de Kepler a Blackwell), o custo computacional do razoamento no espazo abstracto significa que "vamos necesitar toda a competencia que podemos obter" en hardware. LeCun é en gran parte escéptico sobre hardware neuromórfico, computación óptica e computación cuántica para tarefas xerais de IA no futuro próximo. el sinala que a industria de semicondutores dixitais está nun "mínimo local profundo" que as tecnoloxías alternativas enfróntanse a un desafío monumental para alcanzar. Con todo, ve promesa en procesador-en-memoria (PIM) ou tecnoloxías de procesador e memoria analóxico/digital para escenarios específicos de "computado de bordo", como procesamento visual de baixa potencia en lentes intelixentes. para comprimilo antes de envialo ao córtex visual, demostrando que o shuffling de datos, non a computación en si, a miúdo consome a maior parte da enerxía. En canto ao sensor O futuro: un equipo de persoas virtuais superintelixentes En definitiva, LeCun proxecta un futuro onde os sistemas de IA son "ferramentas de poder" que aumentan as capacidades humanas, non as substitúen.A nosa relación co futuro AI será un comando; seremos o seu "xefe", cun "equipo de persoas virtuais superintelixentes que traballan para nós".Este futuro colaborativo, impulsado pola investigación aberta e as plataformas de código aberto, aproveitará as contribucións de todos en todo o mundo, levando a unha variedade de asistentes de IA que melloran a nosa vida cotiá. En esencia, o futuro da IA non é unha entidade monolítica, de caixa negra que aparece de súpeto.En vez diso, é un proceso colaborativo, iterativo, como construír unha gran cidade complexa onde cada construtor, arquitecto e enxeñeiro contribúe a súa experiencia única a un proxecto compartido, levando a unha metrópolis vibrante e diversa de intelixencia avanzada da máquina.